Компьютерное зрение. Advanced от Otus
Вы научитесь
Программа курса
Программа курса сочетает в себе онлайн-обучение, включая вебинары, взаимодействие с преподавателями и однокурсниками в телеграме, выполнение домашних заданий и получение обратной связи. Дважды в неделю проводятся вебинары продолжительностью два академических часа. Их можно смотреть в записи в удобное время. Домашние задания выполняются по каждому отдельному аспекту итогового проекта. По окончании курса студенты получают полностью готовый выпускной проект.
Рабочее окружение и библиотеки для CV
В этом модуле вы рассмотрите основные задачи курса, используемые инструменты и программу курса. В данной теме рассматривается использование библиотеки PyTorch для работы со стандартными датасетами и моделями, предоставляемыми библиотекой torchvision. Обсуждаются основные возможности PyTorch, включая работу с графами вычислений (computation graphs), оптимизацию и использование графических процессоров (GPU) для ускорения вычислений. Также рассматриваются стандартные наборы данных MNIST, CIFAR-10 и ImageNet, а также модели, предоставляемые библиотекой torchvision, такие как VGG, ResNet и другие. В этой теме рассматриваются различные библиотеки и инструменты для компьютерного зрения, обработки изображений и оптического распознавания символов. Будут обсуждаться такие библиотеки, как OpenCV, Kornia, Hugging Face и другие, а также их возможности и ограничения в различных задачах компьютерного зрения. Кроме того, будет представлен обзор методов оптического распознавания символов и их применения в задачах обработки естественного языка.
В этом модуле вы рассмотрите основные задачи курса, используемые инструменты и программу курса.
В данной теме рассматривается использование библиотеки PyTorch для работы со стандартными датасетами и моделями, предоставляемыми библиотекой torchvision. Обсуждаются основные возможности PyTorch, включая работу с графами вычислений (computation graphs), оптимизацию и использование графических процессоров (GPU) для ускорения вычислений. Также рассматриваются стандартные наборы данных MNIST, CIFAR-10 и ImageNet, а также модели, предоставляемые библиотекой torchvision, такие как VGG, ResNet и другие.
В этой теме рассматриваются различные библиотеки и инструменты для компьютерного зрения, обработки изображений и оптического распознавания символов. Будут обсуждаться такие библиотеки, как OpenCV, Kornia, Hugging Face и другие, а также их возможности и ограничения в различных задачах компьютерного зрения. Кроме того, будет представлен обзор методов оптического распознавания символов и их применения в задачах обработки естественного языка.
Нейронные сети и глубокое обучение
В данном разделе рассматриваются основные этапы развития сверточных нейронных сетей (CNN) для решения задач компьютерного зрения. Этот раздел посвящен изучению различных методов оптимизации, используемых для обучения сверточных нейронных сетей. Вы узнаете, как трансформеры могут быть использованы для таких задач, как классификация изображений, обнаружение объектов на изображениях и генерация изображений. В этом разделе вы познакомитесь с методами self-supervised learning, которые становятся все более популярными в области компьютерного зрения. Вы узнаете о таких методах, как SimCLR, BYOL, FixMatch, MAE и DINO, и о том, как они могут быть использованы для обучения глубоких нейронных сетей без необходимости больших объемов размеченных данных.
В данном разделе рассматриваются основные этапы развития сверточных нейронных сетей (CNN) для решения задач компьютерного зрения.
Этот раздел посвящен изучению различных методов оптимизации, используемых для обучения сверточных нейронных сетей.
Вы узнаете, как трансформеры могут быть использованы для таких задач, как классификация изображений, обнаружение объектов на изображениях и генерация изображений.
В этом разделе вы познакомитесь с методами self-supervised learning, которые становятся все более популярными в области компьютерного зрения. Вы узнаете о таких методах, как SimCLR, BYOL, FixMatch, MAE и DINO, и о том, как они могут быть использованы для обучения глубоких нейронных сетей без необходимости больших объемов размеченных данных.
Стандартные задачи CV
В рамках модуля будут рассмотрены теоретические основы Object Detection и представлены примеры использования различных алгоритмов семейства R-CNN. В рамках данного модуля будут рассмотрены проблемы многомасштабности и особенности архитектуры семейства YOLO, а также примеры их использования в задачах обнаружения объектов. В этом модуле вы узнаете об углубленных методах сегментации изображений и видео, а также о 3D-сегментации. В этой теме вы изучите методы оценки позы объектов в двухмерном (2D) и трехмерном (3D) пространстве. В данном модуле будут рассмотрены современные подходы к задаче распознавания лиц. Вы изучите основные архитектуры, используемые для решения данной задачи, такие как SphereFace, ArcFace и CosFace. Также вы рассмотрите различные метрики, используемые для оценки качества работы алгоритмов распознавания лиц, и проведете сравнение между различными подходами. В итоге вы получите представление о современных методах распознавания лиц и сможете выбрать наиболее подходящий подход для решения конкретной задачи. В рамках данной темы будут рассмотрены различные методы отслеживания объектов и ReID, а также их применение в реальных задачах. Этот модуль посвящен выбору темы для проектной работы и организации процесса выполнения проекта. Вы узнаете, как выбрать интересную и актуальную тему для проекта, как составить план работы и как организовать свою работу для достижения цели. Вы также получите рекомендации по оформлению проекта и подготовке презентации. В конце модуля вы сможете выбрать тему для своего проекта и начать работу над ним.
В рамках модуля будут рассмотрены теоретические основы Object Detection и представлены примеры использования различных алгоритмов семейства R-CNN.
В рамках данного модуля будут рассмотрены проблемы многомасштабности и особенности архитектуры семейства YOLO, а также примеры их использования в задачах обнаружения объектов.
В этом модуле вы узнаете об углубленных методах сегментации изображений и видео, а также о 3D-сегментации.
В этой теме вы изучите методы оценки позы объектов в двухмерном (2D) и трехмерном (3D) пространстве.
В данном модуле будут рассмотрены современные подходы к задаче распознавания лиц. Вы изучите основные архитектуры, используемые для решения данной задачи, такие как SphereFace, ArcFace и CosFace. Также вы рассмотрите различные метрики, используемые для оценки качества работы алгоритмов распознавания лиц, и проведете сравнение между различными подходами. В итоге вы получите представление о современных методах распознавания лиц и сможете выбрать наиболее подходящий подход для решения конкретной задачи.
В рамках данной темы будут рассмотрены различные методы отслеживания объектов и ReID, а также их применение в реальных задачах.
Этот модуль посвящен выбору темы для проектной работы и организации процесса выполнения проекта. Вы узнаете, как выбрать интересную и актуальную тему для проекта, как составить план работы и как организовать свою работу для достижения цели. Вы также получите рекомендации по оформлению проекта и подготовке презентации. В конце модуля вы сможете выбрать тему для своего проекта и начать работу над ним.
Генеративные модели
Вы изучите основы теории диффузии и узнаете, как использовать диффузионные модели для создания реалистичных изображений из текстовых описаний или других входных данных. Вы рассмотрите различные архитектуры GAN и узнаете о методах оптимизации и регуляризации, которые используются при обучении GAN. В рамках данного модуля студенты изучат принципы работы и возможности таких моделей, как Stable Video Diffusion, Gen2 и MAKE-A-VIDEO. Студенты изучают принципы работы этих методов, их преимущества и недостатки, а также возможности их применения в различных областях, таких как дизайн, медицина и робототехника. Они также проводят практические занятия, на которых они создают свои собственные модели генерации изображений. Студент изучает принципы работы этих моделей, их характеристики и возможности применения в различных задачах, таких как автоматическое описание изображений, генерация подписей к фотографиям, ответы на вопросы по изображениям и т.д.
Вы изучите основы теории диффузии и узнаете, как использовать диффузионные модели для создания реалистичных изображений из текстовых описаний или других входных данных.
Вы рассмотрите различные архитектуры GAN и узнаете о методах оптимизации и регуляризации, которые используются при обучении GAN.
В рамках данного модуля студенты изучат принципы работы и возможности таких моделей, как Stable Video Diffusion, Gen2 и MAKE-A-VIDEO.
Студенты изучают принципы работы этих методов, их преимущества и недостатки, а также возможности их применения в различных областях, таких как дизайн, медицина и робототехника. Они также проводят практические занятия, на которых они создают свои собственные модели генерации изображений.
Студент изучает принципы работы этих моделей, их характеристики и возможности применения в различных задачах, таких как автоматическое описание изображений, генерация подписей к фотографиям, ответы на вопросы по изображениям и т.д.
Продвинутые методы CV
В рамках этой темы вы освоите базовые принципы каждой из методик, а также опробуете их на практике, используя различные наборы данных. Вы изучите основы геометрической оптики, научитесь калибровать камеры и использовать полученные данные для восстановления 3D сцен. Вы также освоите методы оценки позы объектов на изображениях и научитесь отслеживать объекты на видео. Модуль посвящен изучению методов и алгоритмов стереоскопической визуализации и калибровки камер. Вы узнаете о базовых принципах работы каждого из этих методов, об их сильных и слабых сторонах, а также о практике их применения в реальных проектах. Вы узнаете о разных форматах видеофайлов и стандартах видеокодирования. Поймете, как работает библиотека FFmpeg, и научитесь с ее помощью обрабатывать и анализировать видеоданные. В этом модуле вы освоите методы распознавания и определения действий, которые происходят на видео. Для этого вы изучите различные техники и алгоритмы компьютерного зрения.
В рамках этой темы вы освоите базовые принципы каждой из методик, а также опробуете их на практике, используя различные наборы данных.
Вы изучите основы геометрической оптики, научитесь калибровать камеры и использовать полученные данные для восстановления 3D сцен. Вы также освоите методы оценки позы объектов на изображениях и научитесь отслеживать объекты на видео.
Модуль посвящен изучению методов и алгоритмов стереоскопической визуализации и калибровки камер.
Вы узнаете о базовых принципах работы каждого из этих методов, об их сильных и слабых сторонах, а также о практике их применения в реальных проектах.
Вы узнаете о разных форматах видеофайлов и стандартах видеокодирования. Поймете, как работает библиотека FFmpeg, и научитесь с ее помощью обрабатывать и анализировать видеоданные.
В этом модуле вы освоите методы распознавания и определения действий, которые происходят на видео. Для этого вы изучите различные техники и алгоритмы компьютерного зрения.
Оптимизация, инференс и подготовка к продакшену
В данном модуле рассматриваются методы оптимизации сверточных нейронных сетей. Вы изучите различные инструменты и фреймворки, предназначенные для оптимизации и повышения производительности. Вы установите CVAT-сервер на своем компьютере, составите базовые задачи разметки и примените ее к нескольким изображениям.
В данном модуле рассматриваются методы оптимизации сверточных нейронных сетей.
Вы изучите различные инструменты и фреймворки, предназначенные для оптимизации и повышения производительности.
Вы установите CVAT-сервер на своем компьютере, составите базовые задачи разметки и примените ее к нескольким изображениям.
Проектная работа
Вы можете получить рекомендации по выбору методов и подходов, советы по обработке и анализу данных, а также помощь в написании кода и оптимизации моделей. Студенты научатся представлять свои проектные работы в области компьютерного зрения или машинного обучения, защищать свои идеи и результаты перед аудиторией, отвечать на вопросы и критически оценивать свои достижения.
Вы можете получить рекомендации по выбору методов и подходов, советы по обработке и анализу данных, а также помощь в написании кода и оптимизации моделей.
Студенты научатся представлять свои проектные работы в области компьютерного зрения или машинного обучения, защищать свои идеи и результаты перед аудиторией, отвечать на вопросы и критически оценивать свои достижения.